虽然先前以语音为导向的说话面部生成方法在改善合成视频的视觉质量和唇部同步质量方面取得了重大进展,但它们对唇部运动的关注较少,从而极大地破坏了说话面部视频的真实性。是什么导致运动烦恼,以及如何减轻问题?在本文中,我们基于最先进的管道对运动抖动问题进行系统分析,该管道使用3D面表示桥接输入音频和输出视频,并通过一系列有效的设计来改善运动稳定性。我们发现,几个问题可能会导致综合说话的面部视频中的烦恼:1)输入3D脸部表示的烦恼; 2)训练推导不匹配; 3)视频帧之间缺乏依赖建模。因此,我们提出了三种有效的解决方案来解决此问题:1)我们提出了一个基于高斯的自适应平滑模块,以使3D面部表征平滑以消除输入中的抖动; 2)我们在训练中对神经渲染器的输入数据增加了增强的侵蚀,以模拟推理中的变形以减少不匹配; 3)我们开发了一个音频融合的变压器生成器,以模拟视频帧之间的依赖性。此外,考虑到没有现成的指标来测量说话面部视频中的运动抖动,我们设计了一个客观的度量标准(运动稳定性指数,MSI),可以通过计算方差加速度的倒数来量化运动抖动。广泛的实验结果表明,我们方法对运动稳定的面部视频生成的优越性,其质量比以前的系统更好。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
Preys in the wild evolve to be camouflaged to avoid being recognized by predators. In this way, camouflage acts as a key defence mechanism across species that is critical to survival. To detect and segment the whole scope of a camouflaged object, camouflaged object detection (COD) is introduced as a binary segmentation task, with the binary ground truth camouflage map indicating the exact regions of the camouflaged objects. In this paper, we revisit this task and argue that the binary segmentation setting fails to fully understand the concept of camouflage. We find that explicitly modeling the conspicuousness of camouflaged objects against their particular backgrounds can not only lead to a better understanding about camouflage, but also provide guidance to designing more sophisticated camouflage techniques. Furthermore, we observe that it is some specific parts of camouflaged objects that make them detectable by predators. With the above understanding about camouflaged objects, we present the first triple-task learning framework to simultaneously localize, segment, and rank camouflaged objects, indicating the conspicuousness level of camouflage. As no corresponding datasets exist for either the localization model or the ranking model, we generate localization maps with an eye tracker, which are then processed according to the instance level labels to generate our ranking-based training and testing dataset. We also contribute the largest COD testing set to comprehensively analyse performance of the COD models. Experimental results show that our triple-task learning framework achieves new state-of-the-art, leading to a more explainable COD network. Our code, data, and results are available at: \url{https://github.com/JingZhang617/COD-Rank-Localize-and-Segment}.
translated by 谷歌翻译
突出物体检测本质上是主观的,这意味着多个估计应与相同的输入图像相关。大多数现有的突出物体检测模型是在点对点估计学习管道的指向点之后确定的,使得它们无法估计预测分布。尽管存在基于潜在的变量模型的随机预测网络来模拟预测变体,但基于单个清洁显着注释的潜在空间在探索显着性的主观性质方面不太可靠,导致效率较低,导致显着性“发散建模”较少。给定多个显着注释,我们通过随机采样介绍一般的分歧建模策略,并将我们的策略应用于基于集合的框架和三个基于变量模型的解决方案。实验结果表明,我们的一般发散模型策略在探索显着性的主观性质方面效果。
translated by 谷歌翻译
在最近的文献中,在最近的文献中已经过度研究了不确定性估计,通常可以被归类为炼体不确定性和认知不确定性。在当前的炼拉内不确定性估计框架中,往往忽略了炼拉线性的不确定性是数据的固有属性,只能用一个无偏见的Oracle模型正确估计。由于在大多数情况下,Oracle模型无法访问,我们提出了一个新的采样和选择策略,在火车时间近似甲骨文模型以实现炼梯不确定性估计。此外,我们在基于双头的异源型梯级不确定性估计框架中显示了一种琐碎的解决方案,并引入了新的不确定性一致性损失,以避免它。对于认知不确定性估算,我们认为条件潜在变量模型中的内部变量是模拟预测分布的另一个认识性的不确定性,并探索了关于隐藏的真实模型的有限知识。我们验证了我们对密集预测任务的观察,即伪装对象检测。我们的研究结果表明,我们的解决方案实现了准确的确定性结果和可靠的不确定性估算。
translated by 谷歌翻译
现有的RGB-D显着性检测模型没有明确鼓励RGB和深度来实现有效的多模态学习。在本文中,我们通过互信息最小化介绍了一种新的多级级联学习框架,以“明确”模拟RGB图像和深度数据之间的多模态信息。具体地,我们首先将每个模式的特征映射到较低的维度特征向量,并采用互信息最小化作为常规器,以减少来自RGB的外观特征与来自深度的几何特征之间的冗余。然后,我们执行多级级联学习,在网络的每个阶段强加相互信息最小化约束。基准RGB-D显着数据集的广泛实验说明了我们框架的有效性。此外,为了繁荣发展该领域,我们贡献了最大(比NJU2K大7倍)数据集,其中包含具有高质量多边形/杂文/对象/ instance- / rank级注释的15,625图像对。基于这些丰富的标签,我们另外构建了具有强大基线的四个新基准,并观察了一些有趣的现象,可以激励未来的模型设计。源代码和数据集可在“https://github.com/jingzhang617/cascaded_rgbd_sod”中获得。
translated by 谷歌翻译
尽管在许多计算机视觉任务上具有卓越的性能,但深度卷积神经网络众所周知,在具有资源限制的设备上被压缩。大多数现有的网络修剪方法需要艰苦的人类努力和禁止的计算资源,特别是当约束改变时。当需要部署在各种设备上时,这实际上限制了模型压缩的应用。此外,现有的方法仍然受到缺失的理论指导挑战。在本文中,我们提出了一种信息理论启发的自动模型压缩策略。我们的方法背后的原理是信息瓶颈理论,即隐藏的表示应该彼此压缩信息。因此,我们在网络激活中介绍了标准化的Hilbert-Schmidt独立性标准(NHSIC),作为层重要性的稳定和广义指标。当给出某个资源约束时,我们将HSIC指示器与约束将架构搜索问题转换为具有二次约束的线性编程问题。这种问题很容易通过几秒钟的凸优化方法解决。我们还提供严格的证据,揭示优化归一化的HSIC同时最小化不同层之间的相互信息。没有任何搜索过程,我们的方法实现了与最先进的压缩算法相比的更好的压缩权衡。例如,通过Reset-50,我们达到了45.3%的杂志,在想象中有75.75前1个精度。代码是在https://github.com/mac-automl/itpruner/tree/master上的途径。
translated by 谷歌翻译
伪装的物体检测(COD)旨在将伪装的物体掩盖隐藏在环境中,这是由于伪装对象及其周围环境的类似外观而具有挑战性。生物学研究表明深度可以为伪装对象发现提供有用的对象本地化提示。在本文中,我们研究了伪装对象检测的深度贡献,其中利用现有的单目深度估计(MDE)方法产生深度图。由于MDE数据集和我们的COD数据集之间的域间隙,所生成的深度映射不足以直接使用。然后,我们介绍了两个解决方案,以避免嘈杂的深度地图从主导培训过程中。首先,我们介绍了辅助深度估计分支(“ADE”),旨在重新映射深度图。我们发现我们的“生成深度”情景特别需要“Ade”。其次,我们通过生成的对抗性网络引入多模态的信心感知损失函数,以对伪装对象检测的深度的贡献。我们对各种伪装对象检测数据集的广泛实验说明了现有的“传感器深度”的RGB-D分段技术与“生成深度”工作,我们提出的两个解决方案协同工作,实现了伪装对象检测的有效深度贡献探索。
translated by 谷歌翻译
虽然网络稀疏作为克服神经网络大小的有希望的方向,但它仍然是保持模型准确性的开放问题,并在一般CPU上实现了显着的加速。在本文中,我们提出了一篇新颖的1美元\ Times N $块稀疏模式(块修剪)的概念来打破这种限制。特别是,具有相同输入通道索引的连续$ N $输出内核被分组为一个块,该块用作我们修剪模式的基本修剪粒度。我们的$ 1 \ times n $ sparsity模式prunes这些块被认为不重要。我们还提供过滤器重新排列的工作流程,首先重新排列输出通道尺寸中的权重矩阵,以获得更具影响力的块,以便精度改进,然后将类似的重新排列到输入通道维度中的下一层权重,以确保正确的卷积操作。此外,可以通过并行化块 - 方向的矢量化操作实现在我们的$ 1 \ Times N $块稀疏之后的输出计算,从而导致总基于CPU的平台上的显着加速。通过对ILSVRC-2012的实验证明了我们修剪模式的功效。例如,在50%的稀疏性和$ n = 4 $的情况下,我们的模式在MobileNet-V2的前1个精度的过滤器修剪中获得了大约3.0%的改进。同时,它在Cortex-A7 CPU上获得56.04ms推断,超过体重修剪。代码可在https://github.com/lmbxmu/1xn处获得。
translated by 谷歌翻译
Transformer, which originates from machine translation, is particularly powerful at modeling long-range dependencies. Currently, the transformer is making revolutionary progress in various vision tasks, leading to significant performance improvements compared with the convolutional neural network (CNN) based frameworks. In this paper, we conduct extensive research on exploiting the contributions of transformers for accurate and reliable salient object detection. For the former, we apply transformer to a deterministic model, and explain that the effective structure modeling and global context modeling abilities lead to its superior performance compared with the CNN based frameworks. For the latter, we observe that both CNN and transformer based frameworks suffer greatly from the over-confidence issue, where the models tend to generate wrong predictions with high confidence. To estimate the reliability degree of both CNN- and transformer-based frameworks, we further present a latent variable model, namely inferential generative adversarial network (iGAN), based on the generative adversarial network (GAN). The stochastic attribute of the latent variable makes it convenient to estimate the predictive uncertainty, serving as an auxiliary output to evaluate the reliability of model prediction. Different from the conventional GAN, which defines the distribution of the latent variable as fixed standard normal distribution $\mathcal{N}(0,\mathbf{I})$, the proposed iGAN infers the latent variable by gradient-based Markov Chain Monte Carlo (MCMC), namely Langevin dynamics, leading to an input-dependent latent variable model. We apply our proposed iGAN to both fully and weakly supervised salient object detection, and explain that iGAN within the transformer framework leads to both accurate and reliable salient object detection.
translated by 谷歌翻译